最近,已经开发了数据协作(DC)分析,以跨多个机构跨多个机构提供隐私的综合分析。 DC分析集中了单独构建的维度减少中间表示形式,并通过协作表示实现集成分析,而无需共享原始数据。为了构建协作表示形式,每个机构都会生成并共享一个可共享的锚数据集并集中其中间表示。尽管随机锚数据集对DC分析的功能很好,但使用其分布与RAW数据集的分布接近的锚数据集有望改善识别性能,尤其是对于可解释的DC分析。基于合成少数群体过度采样技术(SMOTE)的扩展,本研究提出了一种锚数据构建技术,以提高识别性能,而不会增加数据泄漏的风险。数值结果证明了所提出的基于SMOTE方法的效率比人工和现实世界数据集的现有锚数据构建体的效率。具体而言,所提出的方法在收入数据集的现有方法上分别实现了9个百分点和38个百分点的性能改进。提出的方法提供了SMOTE的另一种用途,而不是用于不平衡的数据分类,而是用于隐私保护集成分析的关键技术。
translated by 谷歌翻译